Weakly-supervised temporal action localization (WTAL) learns to detect and classify action instances with only category labels. Most methods widely adopt the off-the-shelf Classification-Based Pre-training (CBP) to generate video features for action localization. However, the different optimization objectives between classification and localization, make temporally localized results suffer from the serious incomplete issue. To tackle this issue without additional annotations, this paper considers to distill free action knowledge from Vision-Language Pre-training (VLP), since we surprisingly observe that the localization results of vanilla VLP have an over-complete issue, which is just complementary to the CBP results. To fuse such complementarity, we propose a novel distillation-collaboration framework with two branches acting as CBP and VLP respectively. The framework is optimized through a dual-branch alternate training strategy. Specifically, during the B step, we distill the confident background pseudo-labels from the CBP branch; while during the F step, the confident foreground pseudo-labels are distilled from the VLP branch. And as a result, the dual-branch complementarity is effectively fused to promote a strong alliance. Extensive experiments and ablation studies on THUMOS14 and ActivityNet1.2 reveal that our method significantly outperforms state-of-the-art methods.
translated by 谷歌翻译
Accurate airway extraction from computed tomography (CT) images is a critical step for planning navigation bronchoscopy and quantitative assessment of airway-related chronic obstructive pulmonary disease (COPD). The existing methods are challenging to sufficiently segment the airway, especially the high-generation airway, with the constraint of the limited label and cannot meet the clinical use in COPD. We propose a novel two-stage 3D contextual transformer-based U-Net for airway segmentation using CT images. The method consists of two stages, performing initial and refined airway segmentation. The two-stage model shares the same subnetwork with different airway masks as input. Contextual transformer block is performed both in the encoder and decoder path of the subnetwork to finish high-quality airway segmentation effectively. In the first stage, the total airway mask and CT images are provided to the subnetwork, and the intrapulmonary airway mask and corresponding CT scans to the subnetwork in the second stage. Then the predictions of the two-stage method are merged as the final prediction. Extensive experiments were performed on in-house and multiple public datasets. Quantitative and qualitative analysis demonstrate that our proposed method extracted much more branches and lengths of the tree while accomplishing state-of-the-art airway segmentation performance. The code is available at https://github.com/zhaozsq/airway_segmentation.
translated by 谷歌翻译
In this paper, we present a pure-Python open-source library, called PyPop7, for black-box optimization (BBO). It provides a unified and modular interface for more than 60 versions and variants of different black-box optimization algorithms, particularly population-based optimizers, which can be classified into 12 popular families: Evolution Strategies (ES), Natural Evolution Strategies (NES), Estimation of Distribution Algorithms (EDA), Cross-Entropy Method (CEM), Differential Evolution (DE), Particle Swarm Optimizer (PSO), Cooperative Coevolution (CC), Simulated Annealing (SA), Genetic Algorithms (GA), Evolutionary Programming (EP), Pattern Search (PS), and Random Search (RS). It also provides many examples, interesting tutorials, and full-fledged API documentations. Through this new library, we expect to provide a well-designed platform for benchmarking of optimizers and promote their real-world applications, especially for large-scale BBO. Its source code and documentations are available at https://github.com/Evolutionary-Intelligence/pypop and https://pypop.readthedocs.io/en/latest, respectively.
translated by 谷歌翻译
这项工作的目的是探索如何有效有效地将预训练的基础模型适应图像语义分割的各种下游任务。常规方法通常为每个特定数据集微调整个网络,并且存储这些网络的大量参数是繁重的。最近的一些作品试图将一些可训练的参数插入冷冻网络中,以学习有效调整的视觉提示。但是,这些作品显着修改了标准模块的原始结构,使其在许多现有的高速推理设备上无法使用,其中标准模块及其参数已嵌入。为了促进基于及时的语义细分,我们提出了一个新颖的阶段间及时匹配的框架,该框架保持基础模型的原始结构,同时自适应地生成视觉提示,以适应以任务为导向的调整。具体而言,首先将预训练的模型分为多个阶段,其参数被冷冻并共享所有语义分割任务。然后将称为语义意识的提示匹配器的轻巧模块在两个阶段之间介绍给层次上的插值,以在临时语义图的指导下学习每个特定任务的合理提示。这样,我们可以更好地刺激对冷冻模型的预训练的知识,以有效地学习下游数据集的语义概念。在五个基准上进行的广泛实验表明,所提出的方法可以实现参数效率和性能效率之间的有希望的权衡。
translated by 谷歌翻译
细颗粒的对象检索旨在学习判别性表示以检索视觉上相似的对象。但是,现有的表现最佳作品通常在语义嵌入空间上施加成对的相似性,以在有限数据方面不断调整整个模型,从而使次优溶液易于收敛。在本文中,我们开发了细粒度的检索提示调整(FRPT),该调整引导了一个冷冻的预训练模型,从样本提示和功能适应的角度从样本提示的角度执行精细颗粒的检索任务。具体而言,FRPT只需要在提示中学习更少的参数和适应性,而不是对整个模型进行微调,从而解决了通过微调整个模型引起的次优溶液的收敛性。从技术上讲,随着样本提示,引入结构扰动提示(SPP)以缩放甚至夸大了一些像素,从而通过内容感知到的不均匀采样操作为类别预测做出了贡献。这样,SPP可以通过在原始预训练期间接近已解决的任务的扰动提示来帮助您的精细颗粒检索任务。此外,提出了特定于类别的意识头并将其视为特征适应,它可以使用实例归一化在预训练模型提取的特征中消除物种差异,因此仅使优化的功能仅包括子类别之间的差异。广泛的实验表明,我们的FRPT具有较少的可学习参数,可以在三个广泛使用的细粒数据集上实现最先进的性能。
translated by 谷歌翻译
在计算机视觉中,微调是利用预训练的视觉模型来执行下游任务的事实上的方法。但是,由于采用参数效率低下的全局更新并严重依赖于高质量的下游数据,因此在实践中部署它是非常具有挑战性的。最近,基于及时的学习添加了与任务相关的提示,以使下游任务适应预训练的模型,从而极大地提高了许多自然语言下游任务的性能。在这项工作中,我们扩展了这种显着的转移能力,从迅速的愿景模型中受益,以替代微调。为此,我们提出了参数有效的及时调整(亲调整),以使冷冻视觉模型适应各种下游视觉任务。实行调整的关键是基于及时的调整,即学习特定于任务的视觉提示,以使用预先训练的模型冷冻的下游输入图像。通过仅培训一些其他参数,它可以在基于CNN和基于变压器的各种架构上工作。广泛的实验证据表明,在广泛的视觉任务和场景中,主张表现优于微调,包括图像分类(通用对象,类失衡,图像腐败,对抗性稳定性和分布范围内的概括)和密集的预测任务例如对象检测和语义分割。
translated by 谷歌翻译
尽管收集了越来越多的数据集用于培训3D对象检测模型,但在LiDar扫描上注释3D盒仍然需要大量的人类努力。为了自动化注释并促进了各种自定义数据集的生产,我们提出了一个端到端的多模式变压器(MTRANS)自动标签器,该标签既利用LIDAR扫描和图像,以生成来自弱2D边界盒的精确的3D盒子注释。为了减轻阻碍现有自动标签者的普遍稀疏性问题,MTRAN通过基于2D图像信息生成新的3D点来致密稀疏点云。凭借多任务设计,MTRANS段段前景/背景片段,使LIDAR POINT CLUENS云密布,并同时回归3D框。实验结果验证了MTRAN对提高生成标签质量的有效性。通过丰富稀疏点云,我们的方法分别在Kitti中度和硬样品上获得了4.48 \%和4.03 \%更好的3D AP,而不是最先进的自动标签器。也可以扩展Mtrans以提高3D对象检测的准确性,从而在Kitti硬样品上产生了显着的89.45 \%AP。代码位于\ url {https://github.com/cliu2/mtrans}。
translated by 谷歌翻译
肺癌往往在晚期检测到,导致患者死亡率高。因此,最近的研究集中在早期疾病检测上。肺癌通常首先出现在气道壁的支气管上皮内发生的病变。支气管镜检查是有效无创支气化病变检测的选择程序。特别是,自身荧光支气管镜检查(AFB)区分了正常组织和患病组织的自荧光特性,在AFB视频帧中,病变在AFB视频帧中显得红棕色,而正常组织则为绿色。由于最近的研究表明AFB具有高病变敏感性的能力,因此在标准的支气管镜呼吸道考试中,它已成为一种潜在的关键方法,用于早期肺癌检测。不幸的是,对AFB视频的手动检查非常乏味且容易出错,而有限的努力已花费在可能更健壮的自动AFB病变检测和细分方面。我们提出了一个实时的深度学习体系结构ESFPNET,用于从AFB视频流中对支气管病变的强大检测和分割。该体系结构具有编码器结构,该结构可利用预审计的混合变压器(MIT)编码器和阶段特征金字塔(ESFP)解码器结构。来自肺癌患者气道考试的AFB视频的结果表明,我们的方法分别给出了平均骰子指数和0.782和0.658的IOU值,而处理吞吐量为27帧/秒。这些值优于使用混合变压器或基于CNN的编码器的其他竞争体系结构获得的结果。此外,ETIS-LaribpolypDB数据集的出色性能证明了其对其他域的潜在适用性。
translated by 谷歌翻译
电子健康记录(EHRS)为推进精密医学提供了巨大的承诺,同时也提出了重大的分析挑战。特别是,由于政府法规和/或机构政策,通常无法在机构(数据源)之间共享EHR中的患者级数据。结果,对在多个EHR数据库中分布学习的兴趣越来越大,而无需共享患者级数据。为了应对此类挑战,我们提出了一种新颖的沟通高效方法,该方法通过将问题转变为缺失的数据问题来汇总本地最佳估计。此外,我们建议将远程站点的后验样品合并,这些样本可以提供有关缺失数量的部分信息,并提高参数估计的效率,同时具有差异隐私属性,从而降低信息泄漏的风险。建议的方法在不共享原始患者级别数据的情况下可以进行适当的统计推断,并可以容纳稀疏的回归。我们为统计推断和差异隐私的提议方法的渐近性质提供了理论研究,并根据几种最近开发的方法评估了其在模拟和实际数据分析中的性能。
translated by 谷歌翻译
关节2D心脏分割和3D体积重建是建立统计心脏解剖模型的基础,并了解运动模式的功能机制。但是,由于CINE MR和高主体间方差的平面分辨率低,精确分割心脏图像并重建3D体积是具有挑战性的。在这项研究中,我们提出了一个基于潜在空间的端到端框架DeepRecon,该框架会产生多个临床上基本的结果,包括准确的图像分割,合成高分辨率3D图像和3D重建体积。我们的方法确定了Cine图像的最佳潜在表示,其中包含心脏结构的准确语义信息。特别是,我们的模型共同生成具有准确的语义信息的合成图像,并使用最佳潜在表示对心脏结构进行分割。我们进一步探索了3D形状重建和4D运动模式通过不同的潜在空间操纵策略进行适应的下游应用。同时生成的高分辨率图像具有评估心脏形状和运动的高可解释价值。实验性结果证明了我们的有效性在多个方面的方法,包括2D分割,3D重建,下游4D运动模式适应性。
translated by 谷歌翻译